Java Quartz 作业持久化

shell - 如何获取基于 HIVE-SQOOP 的批处理作业的异常、错误、日志？

我的Hadoop集群有6个数据节点和1个名称节点。我在HIVE中几乎没有(4)个工作，这些工作每天都在运行，并使用sqoop将一些数据从日志文件推送到我们的OLPT数据库。我没有在环境中安装oozie。所有这些都写在HIVE脚本文件(.sql文件)中，我从unix脚本(.sh文件)运行它们。这些shell脚本文件附加有不同的操作系统cron作业，以便在不同的时间运行它们。现在要求是这样的:每天分别为每个作业生成日志/状态。因此，在一天结束时查看这些日志，我们可以确定哪个作业成功运行以及运行所花费的时间，哪个作业失败以及该失败作业的转储/堆栈状态。(功能计划是我们将拥有邮件服务器和每个失

shell - cron 作业的容错能力如何？

我正在使用cron作业每2分钟安排一个shell脚本，其中包含pig和hive脚本。我想知道容错cron作业的容错性如何，假设如果在作业运行时网络出现故障或某些文件损坏，cron作业会做什么？它会再次重新启动该shell脚本还是会发生什么。我在互联网上没有得到任何关于此的信息。如果你们能帮忙，那就太好了。谢谢最佳答案 Oozie使用DAG并在启动共享它的多个脚本时检查数据可用性。Oozie允许您更轻松地处理Pig和Hive作业的依赖项。由于它与Yarn集成在一起，您将不那么担心炸毁集群。如果数据损坏，cron将不执行任何操作，它将

shell cron section stackoverflow hadoop hive apache-pig

hadoop - 导出 Oozie Web 控制台中列出的作业

抱歉，如果这个问题听起来很基础，我是Hadoop环境的新手。我在找什么？在我的例子中，有计划每天运行的作业，我想每天在Excel工作表中导出失败的作业列表。如何查看工作流作业？目前我使用Oozie网络控制台查看作业，但我没有/看不到导出选项。还，我无法从Ooziedocumentation中找到此信息.但是，我发现可以使用如下命令列出作业$ooziejobs-ooziehttp://localhost:8080/oozie-localtime-len2-fliterstatus=RUNNING我卡在哪里了？我想过滤给定日期的失败作业，想将其导出为csv/excel数据。

hadoop Oozie strong code section

Hadoop 独立实例在执行 MR 作业期间退出，日志中出现 ExpiredTokenRemover 错误(在少数作业成功执行后)

Hadoop/HDFS进程退出(所有jps守护程序)，并且当它运行MR作业时，在少数作业成功完成后，用户被从终端抛出。错误:2016-07-2317:56:16,258错误org.apache.hadoop.security.token.delegation.AbstractDelegationTokenSecretManager:ExpiredTokenRemover收到java.lang.InterruptedException:sleep中断日志文件:/usr/local/hadoop/logs/yarn-hduser-resourcemanager-KMUbLptp.log20

ExpiredTokenRemover Hadoop apache section mapreduce

hadoop - 在 Hadoop 上运行的 Oozie 作业出现问题 -/user/history/done_intermediate 上的权限

首先介绍一下背景。我有一个测试CDH集群，有两个节点。我正在尝试执行Oozie作业，下载文件，使用SPARK处理它，然后在Solr中对其进行索引。集群配置为使用Kerberos身份验证。CDH版本为5.7.1当我尝试使用Oozie运行作业时，使用以下命令:ooziejob--ooziehttps://host:11443/oozie/-run--configoozieExample/job.properties失败并出现以下异常:2016-08-1212:29:40,415WARNorg.apache.oozie.action.hadoop.JavaActionExecutor:SER

done_intermediate intermediate code hadoop oozie hdfs

hadoop - 如何将 Flink 作业提交到远程 YARN 集群？

我使用ApacheAmbari在4节点上安装了ApacheHadoop。我用ApacheFlink写了一个简单的作业。我想将此作业提交到我的YARN集群。但是Flink需要在本地机器上YARN配置文件(core-site.xml、yarn-site.xml等)。所以如果我没有误解的话，有两种手动方式在ResourceManager节点上启动flink作业(以查找配置文件)从ResourceManager下载配置文件到本地。我觉得，这两种方式都不是很好。如何将作业提交到远程YARN集群。有合适的方法吗？最佳答案在Hadoop/YA

交到 hadoop section code YARN hadoop-yarn apache-flink ambari

hadoop - 无法在 HUE oozie 中运行 spark 作业。异常 : "datanucleus-api-jdo-3.2.1.jar does not exist"

我想知道的是spark如何/在哪里挑选所需的jar。文件:/mnt/md0/yarn/nm/usercache/kylin/appcache/application_1468506830246_161908/container_1468506830246_161908_01_000001/datanucleus-api-jdo-3.2.1.jar不存在。--num-executors30--executor-memory18g--executor-cores15--driver-memory2g--fileshdfs:///jobs/kylin/hive-site.xml--jarsd

中运 datanucleus-api-jdo spark strong section hadoop apache-spark hadoop-yarn oozie hue

java - 在 Java MapReduce 作业中写入 Hive

我目前正在处理一个JavaMapReduce作业，它应该将数据输出到一个分桶的Hive表。我想到了两种方法:首先直接通过HCatalog写入Hive。问题是，这种方法不支持写入分桶Hive表。因此，当使用分桶Hive表时，我需要先写入非分桶表，然后将其复制到分桶表。第二个选项是将输出写入文本文件，然后将此数据加载到Hive中。此处的最佳做法是什么？哪种方法在处理大量数据时性能更好(考虑到内存和所用时间)？如果我还可以使用非分桶Hive表，哪种方法更好？非常感谢! 最佳答案对于非分桶表，您可以将MapReduce输出存储在表存储位置

MapReduce java section Hive 非分 hadoop hcatalog

hadoop - 由于 24 小时后无法在缓存中找到 token ，Spark 启动器作业未启动

我有一个Java应用程序，它连续运行并检查数据库中的表以获取新记录。当在表中添加新记录时，Java应用程序解压缩文件并将其放入HDFS位置，然后触发Spark作业(我在Java应用程序中使用“SparkLauncher”类以编程方式触发Spark作业)，它对HDFS位置中新添加的文件进行处理。我已经使用OozieJavaAction在集群中安排了Java应用程序。该集群是HDPkerberized集群。作业在24小时内完美运行。所有的解压缩都发生了，spark作业正在运行。但24小时后解压缩发生在Java应用程序中，但资源管理器中未触发Spark作业。异常:连接到服务器时遇到异常:信息

启动器 hadoop token section Java apache-spark kerberos oozie hortonworks-data-platform

hadoop - 为单个 MapReduce 作业指定 'mapreduce.jobtracker.hosts.filename'

集群中添加了一些节点。我的M/R作业在其中任何一个上执行时都失败了。确切原因尚不清楚，需要几天时间才能找到解决方案，因此我正在寻找临时解决方法。有没有办法在作业级别排除这些节点(mapreduce.jobtracker.hosts.exclude.filename)？或者将旧的工作节点列入白名单(mapreduce.jobtracker.hosts.filename)？最佳答案您可以将以下属性设置为2mapred.max.tracker.failures2并且它将在这些节点上使作业2失败两次并在其他地方继续

jobtracker MapReduce section code hadoop

231 232 233234235 236 237